Práctica de Análisis multivariante PCA & FA
Se ha elegido para este ejercicio las estadísticas de bateo de las Grandes Ligas de Béisbol de los Estados Unidos, utilizando los datos de jugadores de todos los tiempos. Se ha obtenido la información en su sitio oficial [https://www.mlb.com/es/].
El béisbol (del inglés: baseball), es un deporte de equipo jugado entre dos grupos de nueve jugadores cada uno. Los países considerados potencias de este deporte se encuentran concentrados en América (Norte, Central, Caribe) y en Asia. Europa cuenta con dos buenos exponentes (Países Bajos e Italia); y en África destaca la selección de Sudáfrica.
Objetivo del juego: conseguir más carreras que el rival. Básicamente se trata de que un equipo de bateadores/corredores, golpee o batee (hitting) la pelota de béisbol, de manera que esto les permita avanzar sobre las bases, hasta completar una carrera antes de que el equipo al campo tome la bola. El lanzador (del equipo contrario) dispone de cuatro posibles lanzamientos, que, de resultar erróneos, permitirían al bateador/corredor avanzar a primera base, mientras que el bateador/corredor dispone de tres intentos para batear (strike), antes de ser eliminado.
Posiciones de los jugadores en el terreno de juego
A continuación, se dejan dos links a videos con la explicación de los conceptos más generales de este bello deporte: * [https://www.youtube.com/watch?v=bSZ-Ww4G_MY] * [https://www.youtube.com/watch?v=skOsApsF0jQ]
Las Ligas Mayores de Béisbol (en inglés Major League Baseball o MLB) son las ligas de béisbol profesional de mayor nivel de los Estados Unidos. Actualmente la MLB cuenta con 30 equipos repartidos en la Liga Nacional y la Liga Americana, fundadas en 1876 y 1901 respectivamente. En 2000 las dos ligas se fusionaron legalmente en la MLB.
El dataset consta de 18 variables, que serán explicadas a continuación, y 934 registros, cada una de los cuales hace referencia a un jugador.
| Variable | Significado | Descripción |
|---|---|---|
| PLAYER | Jugador | Nombre del jugador |
| POS | Posición | Posición del jugador en el terreno |
| G | Games / Juegos | Número de juegos en los que el jugador participa |
| AB | At Bat / Al bate | Número de veces al bate, excluyendo sacrificios, bases por bola, o golpeado por el lanzador |
| R | Runs / Carreras | Número de veces que el bateador pasa por todas las bases y llega a homeplate sin ser out |
| H | Hits | Número de veces que el jugador batea la bola y alcanza primera base sin quedar out |
| 2B | two-base hit / Doble | Número de veces que el jugador batea la bola y alcanza segunda base sin quedar out |
| 3B | three-base hit / Triple | Número de veces que el jugador batea la bola y alcanza tercera base sin quedar out |
| HR | Home run | Número de veces que el jugador batea la bola y recorre todas las bases ya sea con la bola dentro o fuera del campo |
| RBI | Run Batted In / Carreras Impulsadas | número de veces que un jugador permite carreras anotadas de otros jugadores en bases o incluso él mismo si llega a homeplate |
| BB | Bases por Bola | Número de veces que el bateador recibe base por bolas (tras 4 bolas fuera de la zona de strike en un turno al bate) |
| SO | Strike Out o Out | Tres strikes en un turno al bate |
| SB | Stolen Base / Bases Robadas | Número de veces que un jugador pasa de una base a otra sin que lo tomen out |
| CS | Caught Steeling / Atrapado Robando | Número de veces que un jugador es puesto out en un intento de robo de base |
| AVG | Average / Promedio de bateo | Habilidad de un pelotero para conectar hits. Indica el porcentaje entre la cantidad de hits y el número de turnos al bate: AVG=H/AB. Se considera un excelente average a partir de los .300 |
| OBP | On Base Percetage / Porcentaje de embasarse | Capacidad del bateador para llegar a alguna base. Calcula la relación entre (H+BB+HBP)/(AB+BB+HBP+SF) donde HBP (Hit By Pitch) es la cantidad de veces que el bateador es golpeado por el lanzador y SF (Sacrifice Fly) es la cantidad de veces que un jugador batea una bola elevada que eventualmente será out pero que sirve para que otro jugador adelante una base. Un buen OBP está por encima de .333 |
| SLG | Slugging Percetage | Medida del poder del bateador. Representa el porcentaje de los turnos al bate con respecto a las bases alcanzadas. Se divide la cantidad total de bases recorridas (TB) por las veces al bate. El slugging otorga más peso a los extrabases, es decir, se asigna uno por cada sencillo (1B), dos por cada doble (2B), tres por cada triple (3B) y cuatro por cada home run (HR). Las fórmulas para el cálculo son: TB=(1B)+(2x2B)+(3x3B)+(4xHR) y SLG=TB/AB, Se considera un buen slugging a partir de los .500 |
| OPS | On-base percentage plus slugging | Mide la contribución total de un jugador, toma en cuenta su poder y su capacidad de embasarse. Su fórmula es OPS=OBP+SLG. Un buen OPS debe ser de .753 |
Nota: Las variables: H, 2B, 3B y HR, indican el performance más general del bateador, cuánto batea y su capacidad de alcanzar alguna base.
Se realiza un análisis exploratorio de los datos. Se asegura que todas las variables del dataset sean numéricas exceptuando las dos primeras que almacenan el nombre de jugador y su posición en el terreno, que serán categóricas. Adicionalmente a esto, se realiza un tratamiento para los missing values en el dataset.
Se visualiza la tabla de datos con información adicionada:
Variables atómicas: Se agrega una barra a cada celda que represanta el porcentaje con respecto al total para cada registro.
Variables calculadas: Se colorea el background de la celda de rojo o verde, que representa qué tan bueno es un jugador con respecto a cada variable.
| G | AB | R | H | 2B | 3B | HR | RBI | BB | SO | SB | CS | AVG | OBP | SLG | OPS | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Mean | 1762.91 | 6328.24 | 934.11 | 1776.83 | 311.75 | 61.54 | 163.22 | 856.93 | 656.90 | 775.74 | 154.65 | 48.37 | 0.28 | 0.35 | 0.42 | 0.77 |
| Std.Dev | 403.62 | 1553.69 | 315.87 | 509.34 | 105.34 | 42.03 | 132.39 | 341.73 | 302.86 | 459.11 | 150.62 | 41.54 | 0.02 | 0.03 | 0.06 | 0.08 |
| Min | 1121.00 | 4229.00 | 366.00 | 1051.00 | 100.00 | 3.00 | 2.00 | 267.00 | 161.00 | 0.00 | 2.00 | 0.00 | 0.22 | 0.26 | 0.26 | 0.54 |
| Q1 | 1452.50 | 5105.00 | 707.00 | 1389.00 | 237.00 | 32.00 | 57.50 | 603.50 | 444.00 | 407.50 | 47.00 | 18.00 | 0.26 | 0.33 | 0.38 | 0.72 |
| Median | 1677.50 | 5920.00 | 863.50 | 1629.50 | 290.00 | 52.00 | 130.00 | 790.50 | 592.00 | 712.00 | 104.50 | 41.00 | 0.28 | 0.35 | 0.42 | 0.77 |
| Q3 | 1989.00 | 7216.00 | 1099.00 | 2054.00 | 368.00 | 79.00 | 241.50 | 1041.00 | 809.00 | 1093.00 | 214.00 | 70.00 | 0.29 | 0.37 | 0.46 | 0.82 |
| Max | 3562.00 | 14053.00 | 2295.00 | 4256.00 | 792.00 | 309.00 | 762.00 | 2297.00 | 2558.00 | 2597.00 | 1406.00 | 335.00 | 0.37 | 0.48 | 0.69 | 1.16 |
En general curvas asimétricas, con excepción de las variables calculadas (AVG, OBP, SLG y OPS) que presentan una distribución más cercana a la distribución Normal.
Cajas generalmente bajas y bastantes outliers superiores en todas las variables. Estos outliers representan jugadores que destacan del resto y que por consiguiente son muy buenos en base al indicador o variable observada. Es importante tener en cuenta que las variables SO (Strike Out) y CS (Catch Stealing) tienen efecto inverso en realción a ganar el juego, es decir que a mayor valor de estas variables más negativas resultan.
Las variables se encuentran rangos de valores muy diferentes, esto puede afectar al cálculo posterior de las componentes principales. Se necesitará estandarizar la matriz de datos.
Se analiza el dataset para encontrar correlaciones por pares de variables utilizando un threshold de 0.85
| Variable1 | Variable2 | Coef_correlacion |
|---|---|---|
| AB (At Bat / Al bate) | G (Games / Juegos) | 0.957564207796422 |
| H (Runs / Carreras) | G (At Bat / Al bate) | 0.896544901600121 |
| R (Hits) | AB (Runs / Carreras) | 0.860192468123335 |
| H (two-base hit / Doble) | AB (Hits) | 0.962972853075029 |
| H (On-base percentage plus slugging) | R (Slugging Percetage) | 0.895391835291342 |
| 2B (At Bat / Al bate) | H (Games / Juegos) | 0.866793824863909 |
| OPS (Runs / Carreras) | SLG (At Bat / Al bate) | 0.953832760345534 |
| Variable1 | Variable2 |
|---|---|
| Empty | Empty |
Los jugadores que batean en un momento decisivo del juego ayudando a que otros que estén en el campo logren obtener bases, son jugadores muy valiosos. En muchos casos hacen un bateo de sacrificio que implica que él pierde la posibilidad de llegar a primera base para que otro jugador pueda avanzar en el terreno. Esto es lo que almacena la variable RBI y vale la pena estudiarla.
La Gráfica muestra Carreras Impulsadas (RBI) contra las Veces al bate. El color está representado por las posiciones del terreno (POS) y tamaño por el average (AVG).
Homogeneidad entre las posiciones, las líneas de tendencias tienen casi todas la misma pendiente, por tanto no influyen las posiciones en las impulsadas. Relación lineal entre las variables con cierta dispersión.Si el bateador hace contacto con la pelota de manera que le permita recorrer todas las bases y anotar una carrera, se ha realizado un home run o cuadrangular. La forma más común es cuando el bateador golpea la pelota y la saca al exterior del campo de juego. Es una de las jugadas más populares y difíciles para el bateador, por ello los jugadores que usualmente logran hacer este tipo de jugadas son muy valorados en el terreno.
La Gráfica muestra Home runs (HR) contra las juegos (G). El color está representado por las posiciones del terreno (POS) y tamaño por el average (AVG).
Mucha dispersión y aglomeración de datos por debajo de 400 HR, esto se debe precisamente a lo difícil de anotar home runs. Las líneas de tendencia marcan los HR por posiciones: Tercera Base (3B), Cathcers (C), Of Field (OF) y Right field (RF) presentan una pendiente ligeramente superior al resto, por tanto en general son mejores anotando home runs.Misma gráfica pero mostrando el nombre de los jugadores.
Los mejores jugadores tendrán más home runs (eje y) con menos veces al bate (eje x). LOs mejores en este análisis son: Mark McGwire, Jim Thome, Sammy Sosa, ken Griffey, Baby Ruth, Barry Bonds.Robar una base es moverse de una base a otra aprovechando que el pitcher no tiene posibilidad en ese momento de darle out, generalmente esto ocurre cuando el pitcher se está preparando para lanzar la pelota al bateador. Para robar una base el jugador tiene que ser muy rápido, ágil y astuto para utilizar el momento justo para actuar, y al mismo tiempo evitar un out.
La Gráfica muestra Bases robadas (SB) contra las juegos (G). El color está representado por las posiciones del terreno (POS) y tamaño por el Average (AVG).
La gráfica muestra que la mayoría de los jugadores no roban demasiadas bases. Según las líneas de tendencia que indican las posiciones, los jugadores que más roban son el Segunda Base (2B), Left Field (LF) y Campo Corto (SS).El Análisis de Componentes Principales (PCA) es una técnica estadística de reducción de la dimensión (número de variables). Es decir, ante un banco de datos con muchas variables, el objetivo será reducirlas a un menor número perdiendo la menor cantidad de información posible. Las nuevas componentes principales serán una combinación lineal de las variables originales e independientes entre sí.
Se utilizan las técnicas de PCA si existen altas correlaciones entre las variables, ya que esto es indicativo de información redundante y, por tanto, pocos factores podrán explicar gran parte de la variabilidad total que recogen. El PCA ayuda a determinar si las variables son más o menos parecidas y si existe algún tipo de estructura o agrupación entre ellas.
Las componentes se van construyendo según el orden de importancia en cuanto a la variabilidad total, de tal forma que la primera recoge la mayor proporción posible de la variabilidad original; la segunda recoge la máxima variabilidad posible no recogida por la primera, y así sucesivamente.
La proporción de variabilidad retenida por las componentes principales se puede extraer mediante los valores propios (eigen values). Los datos de la varianza son muy importantes para saber cuántas componentes principales serán utilizadas para el análisis.
¿Cómo saber cuantas componentes escoger? Una componente con valor propio mayor que 1, indica que la componente representa más varianza de la que tiene en cuenta una de las variables originales en los datos estandarizados. Ésto se usa comunmente, junto a la cumulative percentage of variance, como punto de corte para determinar la cantidad de componentes a escoger.
| comp_1 | comp_2 | comp_3 | comp_4 | comp_5 | comp_6 | comp_7 | comp_8 | comp_9 | comp_10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| eigenvalue | 7.928 | 2.855 | 2.096 | 1.089 | 0.715 | 0.534 | 0.298 | 0.178 | 0.128 | 0.074 |
| percentage of variance | 49.551 | 17.841 | 13.097 | 6.808 | 4.470 | 3.336 | 1.863 | 1.110 | 0.799 | 0.461 |
| cumulative percentage of variance | 49.551 | 67.392 | 80.490 | 87.298 | 91.768 | 95.105 | 96.968 | 98.078 | 98.877 | 99.338 |
Se puede escoger como punto de corte hasta la component 4. La primera componente contiene una varianza bastante más elevada que el resto, por tanto tiene una mayor explicabilidad por sí sola.
Representación de las variables en las dimensiones más significativas.
Indicadores importantes a tener en cuentas:
cos2: Calidad de las variables sobre las componentes representadas.
contrib: Contribuciones de las variables a cada componente.
WORK IN PROGRESS
WORK IN PROGRESS